AI

머신러닝_11_도메인 적응과 기업 데이터

작성자 : Heehyeon Yoo|2026-03-29
# 머신러닝# 도메인적응# 기업데이터# 검색증강# 파인튜닝

1. 일반 모델과 기업 데이터

범용 모델은 넓은 지식을 두루 갖고 있지만, 특정 조직의 언어와 업무 방식까지 자연스럽게 이해하지는 못한다. 회사 안에서만 쓰는 제품명, 부서 약어, 문서 형식, 처리 절차 같은 것들은 바깥 데이터에 거의 없거나 전혀 다르게 쓰인다. 그래서 기업 데이터에 모델을 붙이면 "말은 그럴듯한데 실무에서는 어긋나는" 답이 자주 나온다.

도메인 적응은 이 간극을 줄이는 작업이다. 목적은 모델을 완전히 새로 만드는 데 있지 않다. 이미 있는 일반 능력 위에, 특정 조직이나 분야에서만 필요한 표현과 규칙을 덧입히는 데 있다.

여기서 중요한 건 모델이 모르는 것이 단순한 지식 부족만은 아니라는 점이다. 같은 단어도 다른 뜻으로 쓰일 수 있고, 같은 요청도 회사마다 기대하는 출력 형식이 다르다. 그래서 도메인 적응은 단순 정보 추가가 아니라, 용어와 태스크를 같이 맞추는 문제다.

2. 용어 적응과 태스크 적응

도메인 적응은 크게 두 갈래로 나눠 볼 수 있다. 하나는 용어 적응이다. 사내 제품명, 코드명, 약어, 문서 관례처럼 조직 안에서만 통하는 표현을 모델이 이해하게 만드는 일이다. 다른 하나는 태스크 적응이다. 어떤 입력이 들어오면 어떤 형식으로 답해야 하는지, 어떤 기준으로 분류해야 하는지, 어떤 문장을 더 조심해서 써야 하는지를 맞추는 일이다.

용어 적응만 필요하다면 검색 기반 보강으로도 상당 부분 해결된다. 관련 문서를 잘 찾아서 붙여 주면 되기 때문이다. 하지만 태스크 적응은 조금 다르다. 모델이 항상 같은 형식으로 응답해야 하거나, 특정 판단 습관을 가져야 하거나, 특정 말투와 제약을 지켜야 한다면 단순 검색만으로는 부족할 수 있다.

그래서 도메인 적응을 볼 때는 "무엇을 더 알려 줄 것인가"와 "어떻게 행동을 바꿀 것인가"를 나눠 보는 편이 낫다. 전자는 검색에 가깝고, 후자는 튜닝에 가까운 경우가 많다.

3. 검색과 튜닝의 경계

기업 데이터에 모델을 붙일 때 가장 먼저 해야 할 일은 수단을 고르는 것이다. 흔히 다 파인튜닝으로 가기 쉽지만, 실제로는 그보다 앞단의 선택이 더 중요하다.

검색 기반 보강은 최신 문서나 자주 바뀌는 정보를 붙일 때 강하다. 모델 바깥의 문서를 읽혀 주는 방식이라 지식 갱신이 쉽고, 잘못된 정보를 모델 안에 고착시킬 위험도 적다. 대신 응답 형식이나 행동 습관 자체를 크게 바꾸는 데는 한계가 있다.

튜닝은 그보다 안쪽을 건드린다. 이 안에는 여러 방식이 들어가는데, 지시 튜닝도 그중 하나로 보는 편이 자연스럽다. 지시 튜닝은 입력과 출력 형식을 맞추는 데 강하다. 어떤 종류의 요청에 어떤 형식으로 답해야 하는지, 어떤 기준을 먼저 보고 어떤 표현을 피해야 하는지를 예시로 학습시킨다. 이 방식은 업무 프로세스와 응답 습관을 바꾸는 데 유리하다.

전체 파인튜닝이나 더 깊은 적응은 그보다 더 큰 비용을 가진다. 특정 도메인 말투, 특정 작업 방식, 특정 분류 기준을 모델 내부에 더 강하게 심을 수 있다. 하지만 비용이 더 들고, 데이터가 나쁘면 잘못된 습관도 함께 학습한다. 그래서 실제로는 검색과 튜닝이 먼저 갈리고, 튜닝 안에서 다시 지시 튜닝, LoRA 같은 경량 적응, 더 무거운 전체 파인튜닝이 나뉜다고 보는 편이 덜 헷갈린다.

4. 데이터 품질과 개인정보

기업 데이터는 많다고 해서 바로 좋은 학습 재료가 되지 않는다. 문서가 오래됐거나 서로 충돌하거나, 실제 업무 흐름과 다르게 작성된 경우가 많다. 사람이 보기엔 대충 넘어갈 수 있는 노이즈도 모델은 그대로 받아들인다. 그래서 도메인 적응의 핵심은 데이터 양보다 정제된 기준에 가깝다.

여기에 개인정보와 민감정보 문제가 붙는다. 기업 데이터는 고객 정보, 계약 내용, 재무 데이터, 내부 정책처럼 바깥으로 나가면 안 되는 내용을 자주 포함한다. 이 데이터를 학습이나 검색에 그대로 쓰면 보안 문제가 생긴다. 그래서 마스킹, 익명화, 접근 통제, 로그 관리가 도메인 적응의 일부가 된다.

이 점이 중요하다. 기업 데이터 적응은 모델 성능만의 문제가 아니다. 어떤 데이터를 써도 되는지, 어떤 데이터는 검색만 허용할지, 어떤 데이터는 아예 학습에서 제외할지를 같이 결정해야 한다. 데이터 거버넌스가 빠진 도메인 적응은 오래 버티기 어렵다.

5. 도메인 적응의 현실적인 기준

도메인 적응은 모델을 "회사 전용 두뇌"로 바꾸는 일이 아니다. 보통은 더 작고 현실적인 목표에서 출발해야 한다. 사내 용어를 덜 틀리게 하는 것, 문서 분류 정확도를 높이는 것, 일정한 형식의 답변을 유지하게 하는 것, 특정 태스크에서 불필요한 오류를 줄이는 것 정도가 더 현실적인 목표다.

그래서 좋은 질문은 "이 모델을 우리 회사에 맞게 바꿀 수 있는가"가 아니라 "정확히 어떤 부분을 회사 맥락에 맞춰야 하는가"다. 지식 갱신이 문제라면 검색이 먼저다. 응답 습관이 문제라면 튜닝이 필요할 수 있다. 특정 작업 능력 자체를 더 크게 바꿔야 한다면 그중에서도 더 무거운 파인튜닝을 검토할 수 있다.

도메인 적응은 만능 해법이 아니다. 다만 범용 모델과 실제 업무 사이의 거리를 줄이는 가장 현실적인 층위라는 점은 분명하다. 결국 모델을 잘 바꾸는 문제이기 전에, 업무를 어떻게 분해해서 모델이 다룰 수 있는 형태로 바꾸는가의 문제에 더 가깝다.